Postée il y a 4 heures
Des statistiques récentes indiquent une demande croissante d'assistance non médicale pour les personnes âgées dans les années à venir. Les robots de service qui peuvent aider les personnes âgées dans leurs tâches quotidiennes s'avéreront très utiles. En outre, cette assistance non médicale pourrait être bénéfique pour les personnes qui se remettent d'une blessure grave. Dans un tel scénario, on peut facilement imaginer un robot-assistant effectuant des tâches ménagères liées aux vêtements, comme aller chercher, plier, ranger les vêtements et même aider à habiller ou déshabiller la personne qui a besoin de soins. La compréhension visuelle et le raisonnement sur le vêtement manipulé constituent donc un problème de recherche important à résoudre : il s'agit de l'analyse de l'image et de la perception de l'état du vêtement et de la façon dont il est manipulé.
Lorsqu'on va chercher un vêtement dans une armoire bien rangée, on rencontre des vues topologiquement propres, bien que l'étendue de l'obstruction visuelle puisse varier, principalement en raison de l'occlusion par d'autres vêtements. En revanche, lorsqu'il s'agit de vêtements froissés, on rencontre des vues qui présentent d'importantes (auto-)occlusions étroitement associées à la complexité topologique des vêtements, ce qui rend leur interprétation très difficile. Nous nous concentrerons sur ces scénarios difficiles de compréhension sémantique des vêtements à partir d'états froissés ou de formes non canoniques. Dans la forme non canonique, la segmentation sémantique devrait être difficile. Cependant, la forme topologique compréhensible permet l'existence de certaines étiquettes sémantiques qui peuvent être identifiées. Pour développer une compréhension complète de la sémantique du vêtement, les approches suivantes seront étudiées.
Approche1 : Récupérer les étiquettes sémantiques à l'aide d'un apprentissage autosupervisé des vêtements dans des états non canoniques
En s'appuyant sur la compréhension partielle des étiquettes sémantiques disponibles dans les états non canoniques des vêtements à partir des images, nous construirons une approche auto-supervisée pour déformer le vêtement à partir d'un modèle canonique vers la configuration observée dans l'image. Cette représentation sera améliorée en adaptant notre approche auto-supervisée du drapage du vêtement avec des techniques de reconstruction basées sur des modèles pour déformer la représentation actuelle de manière à ce qu'elle corresponde au vêtement vu dans les images lors de la projection et en restreignant les étiquettes sémantiques du vêtement identifiées dans T2 comme des points presque fixes.
Approche2 : Récupérer les étiquettes sémantiques des vêtements dans des états non canoniques à l'aide de l'IA générative
Pour identifier la forme canonique sous-jacente du vêtement, il est important d'estimer les déformations du vêtement qui ont conduit à l'état actuel. De cette manière, les régions occultées et invisibles peuvent également être suivies de manière substantielle. Il s'agit toutefois d'un processus fastidieux, qui nécessite des heures de calcul sur GPU. Contrairement à cela, GarSeM cherchera une évolution de forme compacte et conditionnelle pour les modèles de vêtements 4D en combinant la simulation de tissu auto-supervisée avec des modèles génératifs qui ont tenté de s'attaquer à des problèmes similaires mais différents. En outre, nous visons à dépasser les limites actuelles des modèles génératifs qui présentent des capacités de représentation limitées et à les améliorer de manière à générer des détails complexes qui sont importants pour des formes de vêtements réalistes.